©PaperWeekly 原创 · 作者 | 鞠天杰
单位 | 上海交通大学网络空间安全学院
研究方向 | 大语言模型可解释性、知识编辑
本文分析了大语言模型推理多跳知识问题时潜在的事实捷径,这些捷径会诱导模型直接得到多跳知识的跨步答案而不进行逐步推理。我们证明了这些捷径与预训练阶段模型接受的语料高度相关,并对知识编辑后模型的推理一致性产生了灾难性的危害,我们提出了一种简单但有效的事后缓解策略,并呼吁在预训练阶段限制这些捷径的产生,要求大模型与人类的思维模式对齐。
论文题目:
Investigating Multi-Hop Factual Shortcuts in Knowledge Editing of Large Language Models
https://arxiv.org/pdf/2402.11900.pdf
大模型真的能够可靠地推理并回答多跳知识问题吗?近年来,大规模预训练模型在回忆知识和推理方面展现出强大的能力。结合这两种能力,人们普遍相信大模型能够可靠地推理出多跳知识问题的答案。 然而,我们发现大模型在多跳知识问题的推理中可能应用了在预训练阶段学习到的事实捷径。这些潜在的捷径在一般的多跳知识问题中可能不会暴露出危害,但如果对大模型应用最新的知识编辑方法,可能使得大模型回答更新后的多跳知识问题时产生混乱。 例如,大模型在预训练阶段可能直接学习到下一届奥运会在亚洲举办这一跨步知识,当采用知识编辑方法将下一届奥运会举办国由日本改为法国后,模型可能仍然认为下一届奥运会在亚洲举办。 我们针对多跳事实捷径的存在性、危害性以及缓解方法逐步进行研究,依次解决以下问题: Q1:多跳事实捷径是否普遍存在于大模型的各种知识中?它是否与各知识在预训练语料中的词频有关联? 本文统计了 MQUAKE-CF-3K 多跳知识编辑数据集中 3000 条多跳知识的首尾实体在 Wikipedia 预训练语料中的共现次数,发现有超过 2/3 的多跳知识含有或多或少的共现次数。鉴于大模型强大的记忆能力,它很有可能在预训练阶段硬编码了这些跨步知识,成为事实捷径的来源。 ▲ 图2. 多跳知识首尾实体在预训练语料中的共现次数
为了直观说明捷径的存在,本文展示了 3 条具有最多共现次数和最少共现次数的多跳知识。可以发现,共现次数多的多跳知识中,首位主体( )和末位客体( )之间具有较强的直接关联,例如 Twitter 本身就与 United States of America 有强关联,因此大模型不需要推理出 Twitter’s CEO 就能回答出结果。 与之相对, Jerry Rivers 和 Donald Trump 几乎没有交集,因此大模型要想回答出正确答案,必须进行逐步推理。因此,我们提出假设:捷径的存在可能与首末实体在预训练语料中的共现次数高度相关。
▲ 表1. 具有不同共现次数的多跳知识实例
为了进一步验证这一假设,我们采用 Knowledge Neurons 定位大模型回答问题时的关键神经元,通过衡量大模型回答多跳知识问题和所有单跳问题时关键神经元的重合度来反映模型的捷径程度。我们根据首尾实体共现次数的阈值()将数据集划分为高共现次数数据集和低共现次数数据集,并分别计算他们在不同提示下回答多跳问题和所有单跳问题时的重叠程度。 结果发现,大模型在回答具有高首尾实体共现次数的多跳知识问题时与逐步回答单跳知识问题的激活神经元的重叠度更低,说明大模型会利用在预训练阶段学习到的捷径进行跨步推理。这一现象在思维链提示下有所缓解,因为思维链提示会显式要求模型进行逐步推理。 ▲ 图3. few shot和chain of thought提示下GPT-J回答多跳问题和所有单跳问题时的重叠程度随着共现次数阈值(τ)的变化
Q2:多跳事实捷径是否会对模型的推理一致性产生潜在危害? 由于世界知识的不断变化,知识编辑技术逐渐受到人们的重视。近期研究发现了大模型在多跳知识编辑领域的灾难性失败,我们将失败的实例分为单跳知识编辑失败(即至少有一条编辑后的单跳知识回答错误)、捷径引起的失败(即能回答出所有编辑后的单跳知识,但在回答多跳问题时仍然为编辑前的答案)和其他原因失败。 实验结果发现,约 20% 的失败是由多跳事实捷径引起的,说明其对知识编辑后模型输出的一致性产生了很大危害。
此外,我们统计了所有多跳知识由捷径引起的失败次数与这些知识对应的首末实体平均共现次数的关系,发现捷径失败次数与首末实体平均共现次数有明显相关性,模型在具有高共现词频的实例上的失败率可能远不止 20%,进一步说明捷径对多跳知识编辑的灾难性危害。 ▲ 图4. 捷径失败次数与首末实体平均共现次数的关系
我们提出一种简单却有效的捷径擦除操作,以缓解大模型对关键知识进行编辑时存在的捷径。具体来说,我们用多跳问题询问大模型,并用 Knowledge Neurons 计算出其回答过时答案的关键神经元,将这些神经元置零,从而删除这些捷径。
我们对超过 10 次首尾实体共现次数的实例进行捷径删除,并比较删除前后的编辑成功率和捷径失败率。可以发现将多跳问题中的关键神经元置零,可以显著降低由捷径引起的失败,从而提升多跳知识编辑的成功率。 此外,相比于在全体数据集上的测试结果(表 1),多跳知识编辑在高捷径数据集上的成功率有所提升,但是捷径失败率却也有所提升。说明高捷径数据相对于低捷径数据更容易编辑,但却更大程度地受到捷径的影响。 ▲ 表3. 删除事实捷径前后多跳知识编辑在首末实体共现次数大于10的数据集上的编辑成功率和捷径失败率
本文研究并证明了大模型中潜藏的多跳事实捷径,这些捷径源于大模型在预训练阶段对多跳知识首尾实体关联的硬编码,并对知识编辑后的模型推理一致性产生了严重的危害。 我们提出了一种缓解策略,适用于对少量知识编辑的一致性维护。然而,想要彻底根除大模型潜在的事实捷径,必须从预训练阶段入手。我们呼吁更多研究从预训练阶段限制多跳事实捷径的产生,并要求大模型与人类的思维模式对齐。
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读 ,也可以是学术热点剖析 、科研心得 或竞赛经验讲解 等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品 ,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬 ,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱: hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02 )快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」 也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」 订阅我们的专栏吧